近年来,我们看到了处理敏感个人信息的应用程序(包括对话系统)的指数增长。这已经揭示了在虚拟环境中有关个人数据保护的极为重要的问题。首先,性能模型应该能够区分敏感内容与中性句子的句子。其次,它应该能够识别其中包含的个人数据类别的类型。这样,可以考虑每个类别的不同隐私处理。在文献中,如果有关于自动敏感数据识别的作品,则通常在没有共同基准的不同域或语言上进行。为了填补这一空白,在这项工作中,我们介绍了SPEDAC,这是一个新的注释基准,用于识别敏感的个人数据类别。此外,我们提供了对数据集的广泛评估,该数据集使用不同的基准和基于Roberta的分类器进行的,这是一种神经体系结构,在检测敏感句子和个人数据类别的分类方面实现了强大的性能。
translated by 谷歌翻译
电子商务在通过互联网增强商人的能力方面已经大有帮助。为了有效地存储商品并正确安排营销资源,对他们来说,进行准确的总商品价值(GMV)预测非常重要。但是,通过数字化数据的缺乏进行准确的预测是不算平的。在本文中,我们提出了一个解决方案,以更好地预测Apay应用程序内的GMV。得益于Graph Neural网络(GNN),它具有很好的关联不同实体以丰富信息的能力,我们提出了Gaia,Gaia是一个图形神经网络(GNN)模型,具有时间移动意识注意。Gaia利用相关的电子销售商的销售信息,并根据时间依赖性学习邻居相关性。通过测试Apleay的真实数据集并与其他基线进行比较,Gaia表现出最佳性能。盖亚(Gaia)部署在模拟的在线环境中,与基线相比,这也取得了很大的进步。
translated by 谷歌翻译
胎儿镜检查激光​​光凝是一种广泛采用的方法,用于治疗双胞胎输血综合征(TTTS)。该过程涉及光凝病理吻合术以调节双胞胎之间的血液交换。由于观点有限,胎儿镜的可操作性差,可见性差和照明的可变性,因此该程序尤其具有挑战性。这些挑战可能导致手术时间增加和消融不完全。计算机辅助干预措施(CAI)可以通过识别场景中的关键结构并通过视频马赛克来扩展胎儿镜观景领域,从而为外科医生提供决策支持和背景意识。由于缺乏设计,开发和测试CAI算法的高质量数据,该领域的研究受到了阻碍。通过作为MICCAI2021内窥镜视觉挑战组织的胎儿镜胎盘胎盘分割和注册(FETREG2021)挑战,我们发布了第一个Largescale Multencentre TTTS数据集,用于开发广义和可靠的语义分割和视频摩擦质量algorithms。对于这一挑战,我们发布了一个2060张图像的数据集,该数据集是从18个体内TTTS胎儿镜检查程序和18个简短视频剪辑的船只,工具,胎儿和背景类别的像素通道。七个团队参与了这一挑战,他们的模型性能在一个看不见的测试数据集中评估了658个从6个胎儿镜程序和6个短剪辑的图像的图像。这项挑战为创建通用解决方案提供了用于胎儿镜面场景的理解和摩西式解决方案的机会。在本文中,我们介绍了FETREG2021挑战的发现,以及报告TTTS胎儿镜检查中CAI的详细文献综述。通过这一挑战,它的分析和多中心胎儿镜数据的发布,我们为该领域的未来研究提供了基准。
translated by 谷歌翻译
最近,已提出了联合学习,以在边缘进行分布式模型培训。这种方法的原理是汇总在分布式客户端学习的模型,以获得新的更一般的“平均”模型(FedAvg)。然后将最终的模型重新分配给客户以进行进一步培训。迄今为止,最受欢迎的联合学习算法使用模型参数的坐标平均进行聚合。在本文中,我们进行了完整的一般数学融合分析,以评估联合学习框架中的聚合策略。由此,我们得出了新颖的聚合算法,这些算法能够通过根据损失的价值区分客户贡献来修改其模型架构。此外,我们超越了理论中介绍的假设,通过评估这些策略的性能,并通过将它们与IID和非IID框架中的分类任务中的一项进行比较,而没有其他假设。
translated by 谷歌翻译
The abundance of dark matter (DM) subhalos orbiting a host galaxy is a generic prediction of the cosmological framework, and is a promising way to constrain the nature of DM. In this paper, we investigate the use of machine learning-based tools to quantify the magnitude of phase-space perturbations caused by the passage of DM subhalos. A simple binary classifier and an anomaly detection model are proposed to estimate if stars or star particles close to DM subhalos are statistically detectable in simulations. The simulated datasets are three Milky Way-like galaxies and nine synthetic Gaia DR2 surveys derived from these. Firstly, we find that the anomaly detection algorithm, trained on a simulated galaxy with full 6D kinematic observables and applied on another galaxy, is nontrivially sensitive to the DM subhalo population. On the other hand, the classification-based approach is not sufficiently sensitive due to the extremely low statistics of signal stars for supervised training. Finally, the sensitivity of both algorithms in the Gaia-like surveys is negligible. The enormous size of the Gaia dataset motivates the further development of scalable and accurate data analysis methods that could be used to select potential regions of interest for DM searches to ultimately constrain the Milky Way's subhalo mass function, as well as simulations where to study the sensitivity of such methods under different signal hypotheses.
translated by 谷歌翻译
高度特异性语义课程和复杂形状的全自动语义分割可能无法满足科学家所需的准确性标准。在这种情况下,能够帮助操作员在维护对复杂任务的人类控制的同时提供人为的AI解决方案是加速图像标记的良好折衷,同时保持高精度水平。Taglab是一个开源AI辅助软件,用于注释大型OrthoImages,可利用不同程度的自动化;它通过辅助工具速度从划痕加速图像注释,创建定制全自动语义分段模型,最后允许快速编辑自动预测。由于OrthoImages分析适用于几个科学学科,因此Taglab已经设计有灵活的标签管道。我们在两种不同的情景,海洋生态和建筑遗产中报告了我们的结果。
translated by 谷歌翻译